pikepdf snippet
ページコピーするとannotationはコピーされない
annotationsにしおり(PDFの目次)が含まれている
不要なページを削除して保存
この方法だと、しおり(PDFの目次)が調整されず、エラーのあるPDFになってしまう。
code:python
import pikepdf
with pikepdf.open('book-20201213.pdf') as pdf:
del pdf.pages:11 # 先頭の i ~ xi ページを削除 del pdf.pages558: # 不要ページを削除 del pdf.pages:470 # 不要ページを削除 pdf.save(pdf.filename.replace('.', '-chap14-16.')) # 保存
ページを別PDFへ書き出し
しおりを別PDFに持っていかないため、エラーは起きない
code:python
import pikepdf
with pikepdf.open('book-20201213.pdf') as pdf:
new = pikepdf.Pdf.new()
del pdf.pages:11 # 先頭の i ~ xi ページを削除 new.pages.extend(pdf.pages470:496) # 指定ページ間をコピー new.pages.extend(pdf.pages540:558) # 指定ページ間をコピー new.save(pdf.filename.replace('.', '-chap14-16.')) # 保存
PDFからテキストを取り出す
We strongly recommend against trying to scrape text from the content stream.
コンテンツストリームからテキストを取り出そうとしないで!